NLPの進化は、言語を離散的・孤立した記号として扱うのではなく、連続的で多次元のベクトル空間にマッピングするという根本的な転換を表しています。私たちは単純な 特徴ベースの表現 から深い意味的マップへと進化しました。
表現方法の変遷
- 統計時代(疎行列): 早期のNLPはTF-IDFアルゴリズムに依存していました。検索には有効ですが、「スパース性の呪い」に悩まされます。TF-IDFシステムでは「医師」と「医者」は直交するベクトルであり、数学的には関係がゼロです。
- 分散表現の革命(ニューラルネットワーク言語モデル & Word2Vec): ニューラルネットワーク言語モデルは密度の高いベクトルを導入しました。Word2Vec(Skip-gram/CBOW)は、類似した文脈に出現する単語は空間的に近接すべきであると学習します。
- グローバル統計(GloVe): GloVeは全コーパスにおける共起頻度を分析することでギャップを埋め、距離が数学的な意味的類似性を反映するようにします。
深い洞察
出現回数のカウントから文脈予測への移行により、モデルは微細なニュアンスを捉えることができます。この「分散表現」とは、単一の単語の意味が数百ものベクトル次元にわたり分布していることを意味し、それぞれが性別や王族、医学的文脈といった潜在的な意味的特徴を表す可能性があります。